KL-regularized reinforcement learning from expert demonstrations has proved successful in improving the sample efficiency of deep reinforcement learning algorithms, allowing them to be applied to challenging physical real-world tasks. However, we show that KL-regularized reinforcement learning with behavioral reference policies derived from expert demonstrations can suffer from pathological training dynamics that can lead to slow, unstable, and suboptimal online learning. We show empirically that the pathology occurs for commonly chosen behavioral policy classes and demonstrate its impact on sample efficiency and online policy performance. Finally, we show that the pathology can be remedied by non-parametric behavioral reference policies and that this allows KL-regularized reinforcement learning to significantly outperform state-of-the-art approaches on a variety of challenging locomotion and dexterous hand manipulation tasks.
translated by 谷歌翻译
现代AAA视频游戏具有巨大的游戏水平和地图,越来越难以详尽的测试人员覆盖。结果,游戏经常带着灾难性的虫子发货,例如玩家落在地板上或被卡在墙壁上。我们提出了一种基于功能强大的探索算法,Go-explore的模拟3D环境中针对可及性错误的方法,该方法在地图上保存了独特的检查点,然后确定有希望的探索。我们表明,当Go-explore与从游戏的导航网格中得出的简单启发式方法相结合时,发现了挑战性的错误,并全面探索了复杂的环境,而无需人类的演示或游戏动力学知识。探索大大优于更复杂的基线,包括增强学习,并在涵盖了发现的整个地图上的导航网格和独特位置的数量中都具有内在好奇心。最后,由于我们使用并行代理,我们的算法可以在10小时内在10小时内完全覆盖1.5公里x 1.5公里的游戏世界,这对于连续测试套件非常有希望。
translated by 谷歌翻译
强化学习(RL)为可以在现实世界中自主互动的培训代理提供了潜力。但是,一个关键限制是RL算法对核心超参数和网络体系结构选择的脆弱性。此外,诸如不断发展的训练数据和增加的代理复杂性等非平稳性意味着不同的超参数和体系结构在不同的训练点上可能是最佳的。这激发了Autorl,这是一种试图自动化这些设计选择的方法。一类突出的Autorl方法是基于人群的培训(PBT),这在几个大型设置中导致了令人印象深刻的表现。在本文中,我们介绍了PBT式方法中的两项新创新。首先,我们采用基于信任区域的贝叶斯优化,从而可以全面覆盖高维混合参数搜索空间。其次,我们表明,使用世代相传,我们还可以在一次训练中共同学习体系结构和超参数。利用新的高度可行的Brax物理引擎,我们表明这些创新导致了巨大的性能增长,在即时学习整个配置的同时,大大优于调谐基线。代码可在https://github.com/xingchenwan/bgpbt上找到。
translated by 谷歌翻译
跨模式检索引起了计算机视觉和自然语言处理域的广泛关注。随着卷积和经常性神经网络的发展,跨图像文本模态的检索瓶颈不再是图像和文本特征的提取,而是嵌入空间中有效的损失函数学习。许多损失函数试图从异质方式中更接近成对特征。本文提出了一种使用模式内约束损耗函数学习图像和文本的联合嵌入的方法,以减少从相同均匀模态中违反负面对的侵犯。实验结果表明,我们的方法优于FlickR30K和Microsoft Coco数据集的最先进的双向图像检索方法。我们的代码公开可用:https://github.com/canonchen/imc。
translated by 谷歌翻译
离线强化学习在利用大型预采用的数据集进行政策学习方面表现出了巨大的希望,使代理商可以放弃经常廉价的在线数据收集。但是,迄今为止,离线强化学习的探索相对较小,并且缺乏对剩余挑战所在的何处的了解。在本文中,我们试图建立简单的基线以在视觉域中连续控制。我们表明,对两个基于最先进的在线增强学习算法,Dreamerv2和DRQ-V2进行了简单的修改,足以超越事先工作并建立竞争性的基准。我们在现有的离线数据集中对这些算法进行了严格的评估,以及从视觉观察结果中进行离线强化学习的新测试台,更好地代表现实世界中离线增强学习问题中存在的数据分布,并开放我们的代码和数据以促进此方面的进度重要领域。最后,我们介绍并分析了来自视觉观察的离线RL所独有的几个关键Desiderata,包括视觉分散注意力和动态视觉上可识别的变化。
translated by 谷歌翻译
本文展示了基于射频(RF)信号的人为合成,该信号利用RF信号可以通过从人体的信号反射记录人类运动的事实。与现有的RF传感作品不同,只能粗略地感知人类,本文旨在通过引入新颖的跨模型RFGAN模型来产生细粒度的光学人体图像。具体地,我们首先构建一个配备有水平和垂直天线阵列的无线电系统以收发RF信号。由于反射的RF信号被处理为水平和垂直平面上的模糊信号投影加热器,因此我们在RFGAN中设计RF提取器,用于RF热图编码并组合以获得人类活动信息。然后,我们使用所提出的基于RF的自适应训练注入由RF-Extrutioner和RNN提取的信息作为GaN中的条件。最后,我们以端到端的方式训练整个模型。为了评估我们所提出的模型,我们创建了两个跨模型数据集(RF-Walk&RF-Activity),其包含数千个光学人类活动帧和相应的RF信号。实验结果表明,RFGAN可以使用RF信号产生目标人类活动帧。据我们所知,这是基于RF信号生成光学图像的第一个工作。
translated by 谷歌翻译
本文为中国象棋的变化提供了暗中国国际象棋游戏的复杂性分析,这是中国象棋的变异。暗国国际象棋结合了董事会和纸牌游戏的一些最复杂的方面,例如长期战略或规划,大状态空间,随机和不完美信息,使其更接近真实的世界决策问题和姿势对游戏AI的巨大挑战。在这里,我们设计了一个自助播放程序来计算游戏树复杂性和平均信息集大小的游戏,并提出了一种计算信息集数量的算法。
translated by 谷歌翻译
移动和金融技术的繁荣已经为更广泛的人们培育和扩展了各种金融产品,这有助于倡导金融包容。它具有递减金融不平等的非琐碎的社会效益。然而,由独特的特征分布和新用户的信用史有限造成的个人金融风险评估的技术挑战,以及新用户的缺乏经验,在处理复杂数据和获得准确的标签方面,妨碍了进一步推动金融包容性。为了解决这些挑战,本文开发了一种新颖的转移学习算法(即转换),其结合了基于树的模型和内核方法的优点。 Transpoost设计具有平行树结构和有效的重量更新机制,具有理论上的保证,使其能够以$ O(n)$时间复杂度的高维特征和稀疏性在解决现实世界数据中。我们对两个公共数据集进行了广泛的实验,以及腾讯移动支付的独特大规模数据集。结果表明,在具有卓越效率的预测精度方面,转换越野越优于其他最先进的基准传输学习算法,表现出对数据稀疏性的更强的鲁棒性,并提供有意义的模型解释。此外,鉴于财务风险等级,转博稳定使金融服务提供商能够满足最多的用户,包括其他算法。也就是说,转船改善了金融包容性。
translated by 谷歌翻译
相同地形的不同卫星图像的相对辐射归一化(RRN)对于改变检测,对象分类/分割和映射任务是必要的。但是,传统的RRN模型不强大,通过对象变化扰乱,并且RRN模型精确考虑对象变化无法鲁布布地获取无更改集。本文提出了通过潜在变化噪声建模的自动稳健的相对辐射归一化方法。它们利用先验知识,即在相对辐射尺度化下没有变化点具有小尺度噪声,并且在辐射归一化之后,变化点具有大规模的辐射噪声,组合随机期望最大化方法快速且强大地提取No-Change集以学习相对辐射归一化映射映射函数。这使我们的模型在理论上就是关于概率理论和数学扣除的基础。具体地,当我们选择直方图匹配作为与高斯噪声(HM-RRN-RRN-RRN-MOG)混合的相对辐射算法学习方案(HM-RRN-MOG)的相对辐射归一化学习方案,HM-RRN-MOG模型实现了最佳性能。我们的模型具有强大地反对云/雾气/变化的能力。我们的方法自然地为RRN生成一个强大的评估指示器,即No-Change Set Totor Square error。我们将HM-RRN-MOG模型应用于后一种植被/水变化检测任务,这减少了无辐射对比度和NDVI / NDWI对无变化集的差异,产生了一致和可比的结果。我们利用No-Change集合到建筑物变更检测任务中,有效地减少了伪变化并提高了精度。
translated by 谷歌翻译
In this work, we propose a new approach that combines data from multiple sensors for reliable obstacle avoidance. The sensors include two depth cameras and a LiDAR arranged so that they can capture the whole 3D area in front of the robot and a 2D slide around it. To fuse the data from these sensors, we first use an external camera as a reference to combine data from two depth cameras. A projection technique is then introduced to convert the 3D point cloud data of the cameras to its 2D correspondence. An obstacle avoidance algorithm is then developed based on the dynamic window approach. A number of experiments have been conducted to evaluate our proposed approach. The results show that the robot can effectively avoid static and dynamic obstacles of different shapes and sizes in different environments.
translated by 谷歌翻译